home *** CD-ROM | disk | FTP | other *** search
/ TPUG - Toronto PET Users Group / TPUG Users Group CD / TPUG Users Group CD.iso / PET / S-Super PET / (s)t5.d64 / EDA.OVERVIEW.TXT < prev    next >
Text File  |  2009-01-18  |  13KB  |  448 lines

  1.  
  2. SPUG/APL: EDA                  - 1   -                              May 1983
  3.  
  4.  
  5.                      AN EXPLORATORY DATA ANALYSIS PACKAGE
  6.                           FOR THE COMMODORE SUPERPET
  7.  
  8.  
  9.     AUTHORS:
  10.  
  11.          M.P. McFarlane      Head, Centre of Applied  Research Methodology,
  12.                              Darling Downs Institute of Advanced Education,
  13.                              Queensland, Australia.
  14.  
  15.          D.R. McNeil         Professor of Statistics, Macquarie University.
  16.  
  17.     INTRODUCTION
  18.  
  19.     Exploratory Data Analysis  (EDA) focuses  attention upon  detecting and
  20.     examining patterns in data. It is  concerned with  observing, question-
  21.     ing, posing models and explanations, and confronting  relationships, in
  22.     the quest for understanding.
  23.  
  24.     This approach to data analysis requires tools and  aids which  are easy
  25.     to use and which assist the  researcher to  concentrate on  the primary
  26.     tasks of analysis. This EDA package is designed to do just that.  It is
  27.     designed to enable researchers, teachers, students and practitioners to
  28.     easily make use of a number of exploratory strategies developed by John
  29.     Tukey.
  30.  
  31.     In particular, the package has been  specificially designed  to comple-
  32.     ment a book by one of the authors, Donald R. McNeil,  entitled: "Inter-
  33.     active  Data  Analysis: A  Practical Primer",  Wiley-Interscience, John
  34.     Wiley & Sons, Inc., New York, 1977 and is based  upon the  APL listings
  35.     outlined in that book.
  36.  
  37.     One other prominent textbook in this area, written by John W.  Tukey of
  38.     Princeton University, is:  "Exploratory Data  Analysis", Addison-Wesley
  39.     Publishing Co., 1977.
  40.  
  41.     ACKNOWLEDGEMENT
  42.  
  43.     The authors of the EDA package wish to acknowledge the generous support
  44.     of Commodore Australia in the provision of equipment.
  45.  
  46.     The EDA disk came to SPUG from Australia via Waterloo. In order  to use
  47.     disk space more efficiently, it has  been reorganized  substantially by
  48.     Steve Zeller (see Appendix).
  49.  
  50.  
  51.  
  52.  
  53.  
  54.  
  55.  
  56.  
  57.  
  58.  
  59.  
  60.  
  61.  
  62.  
  63.  
  64.  
  65.  
  66.  
  67.  
  68.  
  69.  
  70. SPUG/APL: EDA                  - 2   -                              May 1983
  71.  
  72.  
  73.     THE EDA PACKAGE
  74.  
  75.     I.   GENERAL DESCRIPTION
  76.  
  77.          A.   FUNCTIONAL RELATIONSHIPS
  78.  
  79.               Twelve  APL function  groupings are  used for  data analysis.
  80.               They are:
  81.  
  82.                1.  STEMLEAF       - Stem and Leaf Displays
  83.  
  84.                2.  BOXPLOT        - Boxplots
  85.  
  86.                3.  CONDENSE       - Numbered summaries of data sets
  87.  
  88.                4.  SCAT           - Scatter Plots
  89.  
  90.                5.  LINE           - Regresion Line (Univariate)
  91.  
  92.                6.  COMPARE        - Multiple Box Plots
  93.  
  94.                7.  MEDPOLISH      - Median Polish
  95.  
  96.                8.  CTABLE         - Coded Tables
  97.  
  98.                9.  SMOOTH         - Smoothing
  99.  
  100.               10.  CENTER         - Center Estimates of a Batch
  101.  
  102.               11.  REGRESS        - Robust Regression
  103.  
  104.               12.  ADDFIT         - Analysis of Two-Way Tables
  105.  
  106.               Initially,  the  "main"  APL workspace  is empty.  The needed
  107.               functions  are then  selected via  a menu  and read  into the
  108.               workspace (which then can be saved under an alternative name,
  109.               if desired).
  110.  
  111.               An  APL  text  dataset  is  available for  each of  these EDA
  112.               functions.
  113.  
  114.          B.   DATA SETS
  115.  
  116.               Seven sample datasets are supplied by the authors.  They are:
  117.               INSECTS,  PHONES,  AIRMILES,  ACIDS,  CRIMES,  LOBSTERS,  and
  118.               DEATHS.
  119.  
  120.               An APL sequential dataset is available for each of these.
  121.  
  122.  
  123.  
  124.  
  125.  
  126.  
  127.  
  128.  
  129.  
  130.  
  131.  
  132.  
  133.  
  134.  
  135.  
  136.  
  137.  
  138. SPUG/APL: EDA                  - 3   -                              May 1983
  139.  
  140.  
  141.          C.   GROUPED FUNCTIONS
  142.  
  143.               The  twelve  data  analysis  packages  listed  above  can  be
  144.               reorganised into six groups; following the text by McNeil:
  145.  
  146.               1.   DISPLAYS (STEMLEAF, BOXPLOT & CONDENSE)
  147.  
  148.               2.   COMPARISONS (COMPARE & CONDENSE)
  149.  
  150.               3.   RELATIONS (SCAT & LINE)
  151.  
  152.               4.   TABLES (MEDPOLISH, SCAT, CONDENSE & CTABLE)
  153.  
  154.               5.   SMOOTHING (SMOOTH, SCAT, LINE & CONDENSE)
  155.  
  156.               6.   FITTING (CENTER & REGRESS)
  157.  
  158.               Such organization is the responsibility of the user.
  159.  
  160.          D.   PARAMETERS
  161.  
  162.               Twenty One parameters are used by the various  EDA functions.
  163.               For  convenience,  these  are  all  included  in  the  "main"
  164.               workspace. Their actual use in the twelve data analysis areas
  165.               is  detailed  in  the  Appendix.  Since  most  parameters are
  166.               singlets, they do not take up a great deal of storage.
  167.  
  168.          E.   FILE NAMING CONVENTIONS
  169.  
  170.               The original disk consisted of  39 workspaces.  This resulted
  171.               in an extremely inefficient use of disk space and resulted in
  172.               slow access times to functions in  other workspaces.  The re-
  173.               organized  disk  consists of:  (a) textfiles  of information,
  174.               largely in APL, (b) APL functions stored individually  as APL
  175.               sequential  files,  and  (c)  an  APL   workspace  containing
  176.               utilties  to  draw  in  the  relevant  EDA APL  functions and
  177.               establish them in the workspace.
  178.  
  179.               All files are prefixed with "EDA." and  end in  either ".TXT"
  180.               (for ASCII text files), ".INF" (for  APL text  files), ".AFN"
  181.               (for  APL function  stored as  a character  matrix in  an APL
  182.               sequential  file),  or  ".AWS"  (for  an APL  workspace). The
  183.               remaining  either  characters in  the file  name are  used to
  184.               identify the nature of the particular file's contents.
  185.  
  186.  
  187.  
  188.  
  189.  
  190.  
  191.  
  192.  
  193.  
  194.  
  195.  
  196.  
  197.  
  198.  
  199.  
  200.  
  201.  
  202.  
  203.  
  204.  
  205.  
  206. SPUG/APL: EDA                  - 4   -                              May 1983
  207.  
  208.  
  209.     III. USE OF THE EDA PACKAGE
  210.  
  211.          The authors have assumed a basic proficiency in APL. Users lacking
  212.          this background are invited to work through the tutorial exercises
  213.          in the SuperPET microAPL manual. Before you begin using this disk,
  214.          REMEMBER TO MAKE A BACKUP COPY!
  215.  
  216.          A.   GETTING STARTED
  217.  
  218.               1.   Load the APL interpreter into the SuperPET from the main
  219.                    menu;
  220.  
  221.               2.   Place the EDA disk into either drive 0 or drive 1 and
  222.                    establish the workspace ID as:
  223.  
  224.                    )WSID DISK/0.EDA.MAIN.AWS   (for drive 0), or
  225.                    )WSID DISK/1.EDA.MAIN.AWS   (for drive 1)
  226.  
  227.               3.   The SuperPET will respond with: WAS CLEAR WS.
  228.  
  229.               4.   Load the main EDA APL workspace with:
  230.  
  231.                    )LOAD
  232.  
  233.                    and the main workspace will be loaded into RAM.
  234.  
  235.               5.   This workspace does not contain any EDA analysis
  236.                    capabilites (Hit shift-"3" on the numeric pad to see
  237.                    the contents of the WS). The APL functions present are
  238.                    used only to pull in the desired EDA functions. They are
  239.                    all prefixed by the APL symbol "delta".
  240.  
  241.                    The first step is to make sure the software knows which
  242.                    disk contains the APL functions. Look at the variable
  243.                    "disk" (preceded by delta). It should be either
  244.                    'DISK/0.' or 'DISK/1.' and should correspond to the disk
  245.                    you are now using for EDA (Note: the trailing  period is
  246.                    important). If it doesn't match, change its  value using
  247.                    APL assignment of a character vector.
  248.  
  249.               6.   Now invoke the utilities by typing:
  250.  
  251.                    EDA
  252.  
  253.                    You will be shown a  menu of  the twelve  EDA functional
  254.                    groupings listed above. Upon the  selection of  one, you
  255.                    will be given the opportunity  to see  the documentation
  256.                    that accompanies this EDA function and then the relevant
  257.                    APL functions will be drawn in. You can add other analy-
  258.                    sis capabilities to  the workspace  by returning  to the
  259.                    menu.
  260.  
  261.  
  262.  
  263.  
  264.  
  265.  
  266.  
  267.  
  268.  
  269.  
  270.  
  271.  
  272.  
  273.  
  274. SPUG/APL: EDA                  - 5   -                              May 1983
  275.  
  276.  
  277.               7.   At this point, you  are now  ready to  begin exploratory
  278.                    data analysis. Example data sets  are available  on disk
  279.                    and can be pulled in with: GETDATA.
  280.  
  281.                    Most  of  the  utilities  in  the WS  can be  removed by
  282.                    typing:
  283.  
  284.                    CLEARDELTAS
  285.  
  286.               8.   One  last  note.  Before  you  inadvertently  save  this
  287.                    workspace, change its name  using the  )WSID. I  find it
  288.                    useful to have the  EDA disk  in drive  1 and  then save
  289.                    workspaces that I have created on drive 0.
  290.  
  291.          B.   PROBLEMS
  292.  
  293.               The most likely problem will be one of  running out  of space
  294.               (the  dreaded  message:  WS  FULL). The  only recourse  is to
  295.               delete unneeded functions and  data. If  that still  does not
  296.               resolve the problem, then the particular  problem is  too big
  297.               for the SuperPET.
  298.  
  299.               If you require any additional help  with this  package, write
  300.               Steve Zeller and give as much specific information about your
  301.               problem as you can think of.
  302.  
  303.  
  304.  
  305.  
  306.  
  307.  
  308.  
  309.  
  310.  
  311.  
  312.  
  313.  
  314.  
  315.  
  316.  
  317.  
  318.  
  319.  
  320.  
  321.  
  322.  
  323.  
  324.  
  325.  
  326.  
  327.  
  328.  
  329.  
  330.  
  331.  
  332.  
  333.  
  334.  
  335.  
  336.  
  337.  
  338.  
  339.  
  340.  
  341.  
  342. SPUG/APL                         - 6   -                           May 1983
  343.  
  344.  
  345.                                    APPENDIX
  346.  
  347.     INTRODUCTION
  348.  
  349.     The original disk from Australia came with 40 APL workspaces  taking up
  350.     virtually the entire side of an  8050 floppy  disk. Each  APL function,
  351.     for example,  appeared in  at least  three workspaces.  This repetitive
  352.     approach, of course,  results in  very inefficient  use of  disk space.
  353.     This is a problem for SPUG users who have 4040 drives and it means that
  354.     other related APL workspaces cannot be placed on the  EDA disk.  In ad-
  355.     dition, copying functions and/or data from other  workspaces is  a very
  356.     slow way to use the disk. To address these  problems, the  SPUG version
  357.     of the EDA disk has been reorganized substantially. This  new organiza-
  358.     tion frees up a  substantial amount  of disk  space but  still provides
  359.     users with all the EDA functions and data.
  360.  
  361.     The following table lists the  basic APL  functions down  the left-hand
  362.     stub and indicates which functions are used in each  of the  twelve EDA
  363.     functions. These functions are brought into  the EDA  workspace automa-
  364.     tically as needed (using the EDA  main menu).  Each function  is stored
  365.     individually on the EDA/SPUG disk as an APL  character matrix  which is
  366.     then established in the workspace via the <quad>FX system function. The
  367.     file name of each function is prefixed by 'EDA.' and ends  with '.AFN'.
  368.     The sample datasets are also stored individually  on disk.  Their file-
  369.     names end with '.ADT'. Under this scheme, storage requirements  are re-
  370.     duced.  Furthermore,  retreiving  functions  and  data  stored  in this
  371.     fashion is faster than with the )COPY command.
  372.  
  373.  
  374.  
  375.  
  376.  
  377.  
  378.  
  379.  
  380.  
  381.  
  382.  
  383.  
  384.  
  385.  
  386.  
  387.  
  388.  
  389.  
  390.  
  391.  
  392.  
  393.  
  394.  
  395.  
  396.  
  397.  
  398.  
  399.  
  400.  
  401.  
  402.  
  403.  
  404.  
  405.  
  406.  
  407.  
  408.  
  409.  
  410. SPUG/APL                         - 7   -                           May 1983
  411.  
  412.  
  413.          TABLE 1: EDA/APL Function Relationships
  414.  
  415.  
  416.                                 EDA FUNCTION
  417.                       :-----------------------------------
  418.                       : s  b  c  s  l  c  m  c  s  c  r  a
  419.                       : t  o  o  c  i  o  e  t  m  e  e  d
  420.                       : e  x  n  a  n  m  d  a  o  n  g  d
  421.                       : m  p  d  t  e  p  p  b  o  t  r  f
  422.                       : l  l  e        a  o  l  t  e  e  i
  423.                       : e  o  n        r  l  e  h  r  s  t
  424.                       : a  t  s        e  i           s
  425.               APL     : f     e           s
  426.               FUNCTION:                   h
  427.               --------------------------------------------
  428.               stemleaf  X
  429.               rownames  X     X  X           X
  430.               boxplot      X
  431.               fill         X           X
  432.               condense        X              X
  433.               dscat              X
  434.               scat               X
  435.               line                  X
  436.               compare                  X
  437.               medpol                      X
  438.               ctable                         X
  439.               a3r                               X
  440.               b3r                               X
  441.               smooth3r                          X
  442.               split                             X
  443.               smoothr                           X
  444.               center                               X
  445.               regress                                 X
  446.               addfit                                     X
  447.               ----------------------------------------------
  448.